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摘 要 :[ 目 的 /意义 ] 指出 《大 规模 现代 汉语 分 词语 料 库 构 建 及 应 用 》 一 书 的 主要 价值 与 贡献 ， 旨 
在 为 中 文 语料库 的 构建 提供 借鉴 ， 以 促进 大 语言 模型 下 中 文 自然 语言 处 理 的 快速 发 展 。[ 方 法 /过 程 ] 从 
宏观 和 微观 的 视角 ， 对 新 时 代 人 民 日 报 分 词语 料 库 的 构建 和 语料库 相关 研究 综述 进行 了 基于 语料库 计量 语 
言 学 的 分 析 ， 并 对 深度 学 习 下 的 人 民 日 报 知识 组 织 等 内 容 进行 了 评介 。[ 结果 / 结论 ]《 大 规模 现代 汉语 分 
词语 料 库 构 建 及 应 用 》 一 书 基于 新 时 代 人 民 日 报 分 词语 料 库 构建 及 应 用 进行 研究 ， 不 仅 传 承 了 北京 大 学 人 
民 日 报 语料库 的 体系 和 理念 ， 而 且 在 一 定 程度 上 为 解决 领域 化 自然 语言 处 理 的 任务 提供 了 相应 的 方案 。 
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自 深 度 学 习 引 领 自 然 语言 处 理 的 新 浪潮 以 来 ， 语 料 和 数据 的 重要 性 与 日 俱 增 。 在 更 高 质量 
更 大 规模 语 料 的 助力 下 ， 深 度 神经 网 络 模 型 不 断 刷 新 计算 机 处 理 自 然 语 言 的 性 能 上 限 。 随 着 生成 
式 大 语言 模型 的 兴起 ， 语 料 的 优 劣 更 是 直接 决定 了 人 工 智 能 的 应 用 程度 。 当 前 的 技术 现状 是 ， 以 
GPT4.0 为 代表 的 大 语言 模型 使 用 的 优质 语 料 9096 以 上 都 是 英文 语 料 ， 而 中 文 语 料 的 占 比 甚至 还 
不 到 1%。 当 前 国内 人 工 智能 的 研究 以 深度 学 习 为 标杆 ， 获 取 和 构建 高 质量 的 超大 规模 语料库 是 
或 待 解决 的 技术 难题 。 

在 这 一 背景 下 ， 南 京 农业 大 学 黄 水 清 教 授 和 王 东 波 教授 合 著 的 《大 规模 现代 汉语 分 词语 料 
库 构 建 及 应 用 》 站 1 给 出 了 应 对 上 述 挑战 的 解决 方案 。 该 书 源 于 他 们 在 语料库 构建 领域 十 余年 的 
深耕 和 积累 。 该 书 在 详细 介绍 了 他 们 推出 的 新 版 人 民 日 报 分 词语 料 库 〈New Era People's Daily 
Segmented Corpus， 简 称 NEPD ) ?的 基础 上 ， 细 致 考察 了 当前 国内 语料库 建设 的 发 展现 状 和 存在 
问题 ， 并 围绕 NEPD 语料库 进行 了 性 能 评测 、 语 言 风格 计算 、 深 度 学 习 模 型 构建 以 及 新 闻 领 域 的 
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关键 词 抽取 、 自 动 摘 要 、 自 动 分 类 和 词汇 级 检索 等 应 用 。 该 书 全 面 展示 了 NEPD 语料库 的 优势 和 
特点 ， 完 成 了 当前 汉语 自然 语言 处 理 领 域 最 大 规模 的 分 词语 料 资源 的 构建 。 


1 构建 最 大 规模 的 精 加 工 通用 分 词语 料 库 


《大 规模 现代 汉语 分 词语 料 库 构 建 及 应 用 》 推 出 的 NEPD 语料库 具有 诸多 优势 。 首 先 ， 原 始 
语 料 质量 高 。 该 语料库 以 中 国 特色 社会 主义 进入 新 时 代 以 后 的 《人 民 日 报 》 为 原始 语 料 素材 ， 选 
取 了 2015 年 1 月 至 6 月 、2016 年 1 月 、2017 年 1 月 、2018 年 1 月 、2022 年 1 月 共 10 个 月 的 《人 
民 日 报 》 所 刊 发 的 全 部 文章 ， 原 始 语 料 的 语言 规范 、 标 准 ， 时 代 特 色 鲜 明 。 其 次 ,语料库 规模 
大 。 该 语料库 整体 规模 超过 3000 万 汉字 ， 远 超 100 万 字 的 北京 大 学 1998 年 1 月 人 民 日 报 语料库 、 
100 万 字 的 清华 树 库 和 200 万 字 的 宾 州 汉语 树 库 。 而 且 ， 语 料 库 完成 了 精准 的 人 工分 词 。 不 同 于 
绝 大 多 数 结合 机 器 标注 和 人 工 校 对 的 语料库 中]， 该 语料库 全 部 采用 人 工分 词 精 加 工 方 式 构 建 ， 
其 准确 性 和 可 用 性 具有 充分 的 保证 。 总 的 来 说 ，NEPD 语料库 是 目前 世界 上 规模 最 大 的 精 加 工 现 
代 汉 语 通用 分 词语 料 库 。 该 语料库 在 诸多 领域 具有 重要 的 应 用 价值 ， 有 助 于 语言 学 视角 的 词汇 分 
析 、 风 格 计算 研究 ， 有 助 于 词语 切 分 歧义 研究 及 词典 编纂 工作 ， 有 助 于 信息 组 织 与 服务 研究 ， 
对 于 语言 学 、 情 报 学 、 人 工 智 能 、 自 然 语 言 处 理 、 数 据 科 学 等 研究 都 具有 促进 作用 。 


2 梳理 语料库 研究 及 语料库 建设 现状 


按照 《大 规模 现代 汉语 分 词语 料 库 构 建 及 应 用 》 中 的 定义 ,“ 语 料 ， 即 语言 材料 ， 指 的 是 为 一 
定 目的 收集 的 真实 语言 环境 中 出 现 过 的 语音 、 句 子 、 词 汇 、 语 法 等 素材 ” 1。 通过 对 语料库 早期 
研究 的 追溯 和 理论 概念 的 探讨 《大 规模 现代 汉语 分 词语 料 库 构 建 及 应 用 》 还 将 语料库 定义 为 “对 
真实 语 料 进行 人 工 或 机 融 加 工 、 标 注 后 形成 的 数据 集 ”' 1 ， 且 存储 类 型 包含 了 数据 库 方 式 和 文本 
文件 等 非 数 据 库 方式 '“。 在 此 基础 上 ， 该 书 通过 全 面 的 文献 调研 ， 从 定量 数据 分 析 、 定 性 内 容 考 
察 、 应 用 现状 阐释 以 及 代表 性 语料库 梳理 等 方面 对 语料库 的 建设 和 发 展 特 点 进行 了 全 面 的 总 结 。 

首先 ,《 大 规模 现代 汉语 分 词语 料 库 构建 及 应 用 》 一 书 完成 了 国内 语料库 研究 的 定量 分 析 ， 
通过 发 文 分 析 、 合 作 分 析 、 主 题 演 变 等 角度 ， 总 结 出 研究 对 象 逐 渐 多 元 化 、 技 术 内 容 愈 发 细致 深 
化 两 个 重要 趋势 。 其 次 是 语料库 的 研究 内 容 考 察 ， 该 书 将 语料库 研究 归纳 为 语料库 构建 和 语料库 
应 用 两 大 类 型 ， 前 者 梳理 出 语料库 的 规范 构建 流程 、 语 料 库 构建 过 程 中 的 数据 标注 粒度 和 标注 策 
略 等 问题 ， 后 者 总 结 了 语料库 在 语言 教学 、 领 域 词 表 和 词典 编撰 、 信 息 检索 和 信息 抽取 、 语 言 对 
比 和 翻译 研究 、 自 然 语言 处 理 等 诸多 领域 的 应 用 实例 。 最 后 是 对 国内 代表 性 的 语料库 的 整理 ， 作 
者 从 通用 单 语 语料库 、 汉 英 双语 平行 语料库 、 其 他 汉 外 平行 语料库 、 其 他 特色 语料库 等 四 个 方 
面 ， 介 绍 了 国家 语 委 现 代 汉 语 通 用 平衡 语料库 、 中 国 科学 院 汉 英 平 行 语料库 、 北 京 大 学 计算 语言 
研究 所 双语 平行 语料库 、 汉 语 中 介 语 语料库 等 17 种 国内 最 具 代 表 性 的 各 类 语料库 。 该 部 分 的 研 
究 内 容 从 定量 和 定性 两 个 角度 进行 了 深入 分 析 ， 对 于 全 面 了 解 国内 语料库 研究 近 30 年 来 的 发 展 
现状 具有 重要 的 参考 价值 。 
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大 规模 通用 分 词语 料 库 构 建 方法 并 测评 NEPD 的 性 能 


《大 规模 现代 汉语 分 词语 料 库 构建 及 应 用 》 一 书 梳理 了 基于 规则 、 基 于 统计 和 基于 序列 标注 
的 汉语 自动 分 词 方 法 ,为 后 续 的 分 词 模型 构建 和 分 词性 能 测评 提供 了 理论 和 实践 依据 。 书 中 详细 
介绍 了 《人 民 日 报 》 全 文本 原始 语 料 的 获取 方法 及 其 流程 ， 包 括 数据 预 处 理 、 加 工 策略 、 编 码 方 
式 等 技术 细节 ， 完 整 呈 现 了 NEPD 的 标注 规范 、 过 程 及 结果 ， 包 括 标注 人 员 培 训 策 略 、 多 步骤 标 
注 流 程 、 特 例 规范 说 明 等 内 容 。 

本 书 还 展示 了 NEPD 语料库 分 词性 能 测评 。 书 中 以 序列 化 标注 模型 为 依据 ， 对 比 了 1998 4E 1 
月 人 民 日 报 语 料 和 2018 年 1 月 人 民 日 报 语 料 的 分 词性 能 ， 发 现 了 两 者 之 间 的 明显 差异 。 在 1998 
年 语 料 基础 上 训练 出 的 分 词 模型 已 经 无 法 适应 于 当今 时 代 的 现代 汉语 文本 切 分 需求 ， 而 2018 年 
语 料 则 能 够 充分 满足 这 一 需求 ， 这 充分 证 明了 构建 NEPD 语料库 的 必要 性 57, NEPD. 显著 地 弥补 
了 北京 大 学 人 民 日 报 语 料 没有 持续 更 新 的 不 足 ， 可 以 认为 是 对 已 有 人 民 日 报 语料库 在 当前 时 代 
的 延续 和 扩充 ， 是 对 北京 大 学 人 民 日 报 语料库 的 创建 者 俞 士 汶 先 生 学 术 事业 最 好 的 传承 。 同 时 ， 
NEPD 也 可 为 命名 实体 识别 、 语 义 检索 和 浅 层 句法 分 析 等 任务 提供 有 力 的 语 料 资源 文 撑 CU, 


4 考察 当代 汉语 文本 的 语言 风格 和 分 词 歧 义 


《大 规模 现代 汉语 分 词语 料 库 构 建 及 应 用 》 对 现代 汉语 名 长 分 析 的 研究 进行 了 回顾 和 整理 ， 
并 在 此 基础 上 统计 了 各 类 型 汉语 句子 在 2015 年 1 月 至 6 月 、2016 年 1 月 、2017 年 1 月 、2018 年 
1 月 、2022 年 1 月 共 10 个 月 的 人 民 日 报 语 料 在 各 月 度 的 分 布 情况 1。 该 书 还 从 字 词 两 个 维度 分 
别 统计 了 各 类 型 句子 长 度 的 分 布 情况 ， 有 助 于 全 面 了 解 NEPD 语料库 。 此 外 ， 得 益 于 该 语 料 的 规 
模 ， 词 分 布 上 的 齐 普 夫 定律 得 到 了 充分 验证 ， 相 关 分 析 结 果 对 于 计量 语言 学 研究 具有 重要 参考 价 
Eo 《大 规模 现代 汉语 分 词语 料 库 构 建 及 应 用 》 还 对 分 词 歧义 进行 了 系统 分 析 ， 根 据 NEPD10 个 
月 的 语 料 分 别 统计 了 不 同 词 长 的 词 频 ， 发 现 了 能 充分 体现 NEPD 时 代 特 征 的 部 分 重要 词语 。 在 变 
异 词 及 异 例 词 的 词 频 统计 分 析 中 ， 该 书 全 面 考察 了 17 种 词性 下 变异 词 的 从 合 度 和 句法 特征 ， 为 
现代 汉语 词性 和 句法 研究 提供 了 鲜 活 的 数据 支撑 。 


5 ”助力 新 闻 语 料 的 多 类 型 信息 组 织 和 服务 


《大 规模 现代 汉语 分 词语 料 库 构 建 及 应 用 》 一 书 在 后 半 部 分 重点 对 NEPD 在 深度 学 习 下 的 
应 用 场景 进行 了 实践 探索 !'9。 第 一 ， 基 于 NEPD 语料库 构建 了 深度 学 习 分 词 模 型 ;1。 该 模型 主 
要 基于 Bi-LSTM 和 Bi-LSTM-CRF 两 类 深度 学 习 框 架 ， 通 过 序列 化 标注 形式 ，F1 值 分 别 达到 了 
97.1696 和 97.67%， 为 当前 现代 汉语 自动 分 词 研究 提供 了 可 靠 的 参考 指标 。 第 二 ， 面 向 NEPD 的 
新 闻 特 点 ， 开 展 了 新 闻 关 键 词 的 自动 抽取 研究 "1， 综 合 采 用 了 TF-IDF, Yake, TextRank, Rake, 
LDA 和 LSI 等 6 种 不 同 的 算法 ， 结 合 人 工 审核 的 方法 获取 了 每 个 月 语 料 中 的 前 500 个 关键 词 。 从 
结果 来 看 ， 关 键 词 反映 出 《人 民 日 报 》 文 章 的 内 容 主 题 特点 ， 反 映 出 社会 发 展 各 阶段 的 大 事件 和 
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侧重 点 ， 尤 其 是 新 时 代 的 社会 新 焦点 ， 为 准确 掌握 社会 发 展 变化 的 全 貌 与 趋势 提供 了 有 力 参考 。 
第 三 ， 基 于 NEPD 开展 了 新 闻 语 料 的 自动 摘要 人 研究 I。 该 研究 分 别 实现 了 抽取 式 自 动 摘要 和 生 
成 式 自动 摘要 ， 抽 取 式 自动 摘要 采用 句子 权重 和 TextRank 传统 算法 ， 生 成 式 自动 摘要 则 参考 了 
生成 式 预 训练 模型 TS PEGASUS 模型 。 从 结果 来 看 ， 抽 取 式 摘要 在 Rouge 指标 上 表现 良好 ， 生 成 
式 摘 要 则 在 语法 、 流 畅 性 、 信 息 量 方面 表现 优异 。 第 四 ， 基 于 NEPD 语 料 研究 了 新 闻 文本 自动 分 
类 问题 。 人 研究 选取 国际 、 经 济 、 社 会 、 体 育 、 文 化 、 政 治 6 个 版 面 共 计 9275 篇 新 闻 报 道 ， 对比 
了 CNN, RNN 和 BERT 三 类 常见 的 深度 学 习 模 型 框架 ， 其 中 BERT 模型 的 性 能 最 优 ，F1 值 达 到 
了 82% 以 上 ， 尤 其 在 体育 类 上 表现 最 好 ， 准 确 率 高 达 98.72%。 第 五 ， 该 书 进一步 考察 了 分 词 特 
征 对 分 类 效果 的 影响 。 结 果 表 明 ， 添 加 了 分 词 特征 的 模型 无 论 在 准确 率 还 是 召回 率 中 均 能 获得 最 
高 值 均 出 的 表现 。 第 六 ， 该 书 还 探讨 了 语料库 基础 上 的 新 闻 词 汇 级 检索 系统 的 研发 。 基 于 BM25 
算法 ， 该 书 设计 了 包含 数据 存储 和 检索 实现 两 部 分 的 检索 系统 。 该 书 还 提供 了 完整 的 检索 系统 构 
建 方案 ， 细 致 介绍 了 数据 处 理 和 算法 计算 流程 ， 并 构建 了 完整 的 新 闻 词 汇 级 检索 平台 。 


弹指 韶 光 过 ，1998 4E 1 月 人 民 日 报 标注 语料库 在 北京 大 学 俞 士 汶 先生 的 主持 下 完成 构建 不 
觉 已 二 十 多 年 "01，NEPD 语料库 秉承 俞 先 生 为 中 文 信息 处 理 构建 最 基础 语 料 的 宗 则 ， 拓 展 了 人 
民 日 报 语 料 的 规模 ， 提 升 了 人 民 日 报 语 料 的 时 效 性 ， 展 示 了 人 民 日 报 语 料 的 历时 性 。 在 大 数据 、 
人 工 智 能 发 展 的 新 趋势 下 ， 面 向 前 沿 信息 技术 对 优质 大 规模 语 料 的 需求 《大 规模 现代 汉语 分 词 
语料库 构建 及 应 用 》 一 书 通过 推出 和 介绍 NEPD 语料库 ， 并 结合 基于 该 语料库 的 计量 分 析 和 信息 
组 织 探索 ， 为 现代 汉语 自然 语言 处 理 研 究 提 供 了 宝贵 的 基础 资源 和 技术 应 用 框架 。 该 书 以 语料库 
资源 构建 和 应 用 为 线索 ， 结 合 语料库 语言 学 、 数 据 科 学 、 自 然 语言 处 理 技术 等 ， 为 领域 研究 和 学 
科 发 展 提供 了 值得 借鉴 的 研究 路 径 。 同 时 也 希望 黄 水 清 、 王 东 波 团队 ， 能 够 与 时 俱 进 ， 不 断 提供 
更 好 的 语 料 ， 推 动 汉语 信息 人 处理 的 不 断 进步 。 


【 注释 】 
GD 个 人 或 机 构 可 以 通过 网 址 https:/corpus.njau.edu.cn/ 申请 NEPD 语 料 库 从 事 非 商业 行为 的 相应 研究 。 
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An Example of Large-scale Refinement 
Teneral Corpus Construction: Comments 
on Construction and Application of Large-scale 
Modern Chinese Word Segmentation Corpus 
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(1. North and Middle College, Nanjing Normal University, Zhenjiang 212399, China; 
2. School of Computer and Electronic Information/School of Artificial Intelligence, 
Nanjing Normal University, Nanjing 210023, China) 


Abstract: [ Purpose/Significance ] This paper points out the main value and contribution of the book 
Construction and Application of Large-scale Modern Chinese Word Segmentation Corpus, so as to provide 
reference for the construction of Chinese corpus and promote the rapid development of Chinese natural 
language processing under the large language model. [ Method/Process ] From a whole and micro 
perspective, this paper reviews the construction of People's Daily word segmentation corpus in the new 
era, corpus-based quantitative linguistics analysis, and the knowledge organization of People's Daily under 
deep learning. [ Result/Conclusion ] Based on the construction and application of People's Daily word 
segmentation corpus in the new era, the book not only inherits the system, ideas and beliefs of People's 
Daily corpus, but also provides corresponding solutions for solving the tasks of domanized natural language 
processing to a certain extent. 
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